54 research outputs found

    Sparse Labeling Augmentation for Dense Models Training

    Get PDF
    This work proposes and validates a simple but effective approach to train dense semantic segmentation models from sparsely labeled data. Data and labeling collection is most costly task of semantic segmentation. Our approach needs only a few pixels per image reducing the human interaction required.    This work proposes and validates a simple but effective approach to train dense semantic segmentation models from sparsely labeled data. Data and labeling collection is most costly task of semantic segmentation. Our approach needs only a few pixels per image reducing the human interaction required.   &nbsp

    Semantic Segmentation from Sparse Labeling Using Multi-Level Superpixels

    Get PDF
    Semantic segmentation is a challenging problemthat can benefit numerous robotics applications, since it pro-vides information about the content at every image pixel.Solutions to this problem have recently witnessed a boost onperformance and results thanks to deep learning approaches.Unfortunately, common deep learning models for semanticsegmentation present several challenges which hinder real lifeapplicability in many domains. A significant challenge is theneed of pixel level labeling on large amounts of trainingimages to be able to train those models, which implies avery high cost. This work proposes and validates a simplebut effective approach to train dense semantic segmentationmodels from sparsely labeled data. Labeling only a few pixelsper image reduces the human interaction required. We findmany available datasets, e.g., environment monitoring data, thatprovide this kind of sparse labeling. Our approach is basedon augmenting the sparse annotation to a dense one with theproposed adaptive superpixel segmentation propagation. Weshow that this label augmentation enables effective learning ofstate-of-the-art segmentation models, getting similar results tothose models trained with dense ground-truth

    Deep learning based semantic segmentation on hyperspectral data.

    Get PDF
    Nowadays, many applications are taking advantage of the recent advances on artificial intelligence to improve their performance, being Deep Learning one of the newest and most powerful tools. Hyperspectral Imaging (HSI) is an analytical technique based on spectroscopy, where some of the main purposes are identifying materials, detecting objects or following processes. Deep Learning has shown promising results on many computer vision related tasks, including processing of HSI data. This project evaluates the state-of-the-art Deep Learning methods and benchmarks for semantic segmentation on available HSI datasets, with the purpose of replicating the state-of-the-art and finding new strategies that can improve the performance of existing models. Most existing works are based on per-patch classification, and have shown great results for the task, but they were evaluated by their authors in relatively artificial scenarios, where training and testing data were extremely similar. We have performed extensive experimentation to replicate their results and to evaluate on additional existing benchmarks, obtaining similarly good results. In this master thesis we have designed new benchmarks to evaluate the performance of each model in more realistic scenarios. In particular, new benchmarks based on existing data have been built with disjoint training and testing data and to test across different datasets. This is a tedious task and not straight forward, since existing datasets usually cover a single (large) scene, and consist of a single (very large) hyperspectral image. An exhaustive verification of these per-patch models in the proposed benchmarks has shown how the performance does not really achieve such perfect scores, and shows an evaluation closer to how the model would perform in a real life situation. Besides, this thesis evaluates and adapts a new type of architecture for the task of segmenting HSI. In particular, a general purpose semantic segmentation model. This model has shown high performance on RGB semantic segmentation, has been adapted and evaluated on the available datasets and proposed HSI benchmarks. This general purpose semantic segmentation network MiniNet-v2, based on an encoder-decoder architecture, has required to be adapted to work with hyperspectral data in two aspects: not only the model itself needed to be adjusted, but a new pre-processing of the data was needed. Numerous variations have been explored and evaluated thoroughly to find the best pre-processing of the data for this kind of network. As this kind of model learns from image contextual information, the input patches to the network need to be as big as possible, always keeping in mind each HSI dataset is limited to a single scene. The choice of MiniNet as alternative model was partially guided by its properties, specially that it is built towards efficiency. In our adaptation it has exhibited higher performance than per-patch models, and much higher efficiency in terms of inference time since the prediction is done as a whole instead of predicting each small patch. As Deep Learning shows good performance and efficiency on hyperspectral data, this technology could exhibit great advances in the near future in fields like recycling, medicine or disaster prediction, where HSI technology has a lot of potential interest.<br /

    Sistema interactivo de identificación de usuarios mediante reconocimiento facial

    Get PDF
    El reconocimiento e identificación de una cara es una parte importante de la capacidad del sistema de percepción humano y una tarea rutinaria para las personas. Sin embargo, la construcción de un sistema informático capaz de realizar este trabajo continúa siendo un área de investigación muy activa, aunque también se trata de una de las que más avances han logrado. Por ello y por la gran cantidad de aplicaciones que tiene esta tarea se trata de uno de los campos más conocidos de la visión por computador. Como punto de partida se ha realizado un estudio y evaluación de las técnicas de reconocimiento facial existentes seleccionando aquella más apropiada para el sistema interactivo que se propone. Se han diseñado e implementado las etapas correspondientes al sistema con el objetivo de comparar aquellos aspectos relevantes con la precisión de la predicción y la capacidad de hacerlo un sistema realista.Como existen muchísimas técnicas de reconocimiento facial, en este trabajo se centra la atención en las técnicas que ofrecen las librerías del entorno escogido de OpenCV / C++. Su rendimiento fue evaluado con diversas bases de datos de libre acceso a la comunidad científica. Posteriormente se elaboró una base de datos propia la cual fue empleada para la adaptación del diseño e implementación para su funcionamiento en el sistema real. En la parte experimental se han llevado a cabo ensayos diferenciados que permiten valorar cada etapa de la que el sistema consta de modo que se puedan evaluar de forma detallada las ventajas y desventajas. Los experimentos constan de un proceso de varias etapas: la detección del rostro en una imagen, la extracción de las características y la identificación/verificación de la cara mediante la clasificación de las características. El objetivo de la evaluación se centra en la extracción de las características y el reconocimiento de personas para lo que se han evaluado los tiempos de procesamiento y las tasas de error respectivamente. Los resultados obtenidos basados en metodología tradicional ofrecieron buenos resultados dentro de las propias limitaciones que presentan. Con el objetivo de estudiar y evaluar metodologías más actuales basadas en algoritmos más robustos se tomó la determinación de usar alguna de las técnicas más novedosas y actuales basadas en redes neuronales de convolución El sistema interactivo es el resultado de estos estudios en el que se propone un sistema. El sistema interactivo diseñado utiliza el método Local Binary Patterns, que es el que mejores características presentaba para esta aplicación

    Segmentación semántica con modelos de deep learning y etiquetados no densos

    Get PDF
    La segmentación semántica es un problema muy estudiado dentro del campo de la visión por computador que consiste en la clasificación de imágenes a nivel de píxel. Es decir, asignar una etiqueta o valor a cada uno de los píxeles de la imagen. Tiene aplicaciones muy variadas, que van desde interpretar el contenido de escenas urbanas para tareas de conducción automática hasta aplicaciones médicas que ayuden al médico a analizar la información del paciente para realizar un diagnóstico o operaciones. Como en muchos otros problemas y tareas relacionados con la visión por computador, en los últimos años se han propuesto y demostrado grandes avances en los métodos para segmentación semántica gracias, en gran parte, al reciente auge de los métodos basados en aprendizaje profundo o deep learning.\\ A pesar de que en los últimos años se están realizando mejoras constantes, los modelos de \textit{deep learning} para segmentación semántica %así como otras áreas, tienen un problema presentan un reto que dificulta su aplicabilidad a problemas de la vida real: necesitan grandes cantidades de anotaciones para entrenar los modelos. Esto es muy costoso, sobre todo porque en este caso hay que realizarlo a nivel de píxel. Muchos conjuntos de datos reales, por ejemplo datos adquiridos para tareas de monitorización del medio ambiente (grabaciones de entornos naturales, imágenes de satélite) generalmente presentan tan solo unos pocos píxeles etiquetados por imagen, que suelen venir de algunos clicks de un experto, para indicar ciertas zonas de interés en esas imágenes. Este tipo de etiquetado hace %imposible que sea muy complicado el entrenamiento de modelos densos que permitan procesar y obtener de manera automática una mayor cantidad de información de todos estos conjuntos de datos.\\ El objetivo de este trabajo es proponer nuevos métodos para resolver este problema. La idea principal es utilizar una segmentación inicial de la imagen multi-nivel de la imagen para propagar la poca información disponible. Este enfoque novedoso permite aumentar la anotación, y demostramos que pese a ser algo ruidosa, permite aprender de manera efectiva un modelo que obtenga la segmentación deseada. Este método es aplicable a cualquier tipo de dispersión de las anotaciones, siendo independiente del número de píxeles anotados. Las principales tareas desarrolladas en este proyecto son: -Estudio del estado del arte en técnicas de segmentación semántica (la mayoría basadas en técnicas de deep learning) -Propuesta y evaluación de métodos para aumentar (propagar) las etiquetas de las imágenes de entrenamiento cuando estas son dispersas y escasas -Diseño y evaluación de las arquitecturas de redes neuronales más adecuadas para resolver este problema Para validar nuestras propuestas, nos centramos en un caso de aplicación en imágenes submarinas, capturadas para monitorización de las zonas de barreras de coral. También demostramos que el método propuesto se puede aplicar a otro tipo de imágenes, como imágenes aéreas, imágenes multiespectrales y conjuntos de datos de segmentación de instancias

    Scene understanding for interactive applications

    Get PDF
    Para interactuar con el entorno, es necesario entender que está ocurriendo en la escena donde se desarrolla la acción. Décadas de investigación en el campo de la visión por computador han contribuido a conseguir sistemas que permiten interpretar de manera automática el contenido en una escena a partir de información visual. Se podría decir el objetivo principal de estos sistemas es replicar la capacidad humana para extraer toda la información a partir solo de datos visuales. Por ejemplo, uno de sus objetivos es entender como percibimosel mundo en tres dimensiones o como podemos reconocer sitios y objetos a pesar de la gran variación en su apariencia. Una de las tareas básicas para entender una escena es asignar un significado semántico a cada elemento (píxel) de una imagen. Esta tarea se puede formular como un problema de etiquetado denso el cual especifica valores (etiquetas) a cada pixel o región de una imagen. Dependiendo de la aplicación, estas etiquetas puedenrepresentar conceptos muy diferentes, desde magnitudes físicas como la información de profundidad, hasta información semántica, como la categoría de un objeto. El objetivo general en esta tesis es investigar y desarrollar nuevas técnicas para incorporar automáticamente una retroalimentación por parte del usuario, o un conocimiento previo en sistemas inteligente para conseguir analizar automáticamente el contenido de una escena. en particular,esta tesis explora dos fuentes comunes de información previa proporcionado por los usuario: interacción humana y etiquetado manual de datos de ejemplo.La primera parte de esta tesis esta dedicada a aprendizaje de información de una escena a partir de información proporcionada de manera interactiva por un usuario. Las soluciones que involucran a un usuario imponen limitaciones en el rendimiento, ya que la respuesta que se le da al usuario debe obtenerse en un tiempo interactivo. Esta tesis presenta un paradigma eficiente que aproxima cualquier magnitud por píxel a partir de unos pocos trazos del usuario. Este sistema propaga los escasos datos de entrada proporcionados por el usuario a cada píxel de la imagen. El paradigma propuesto se ha validado a través detres aplicaciones interactivas para editar imágenes, las cuales requieren un conocimiento por píxel de una cierta magnitud, con el objetivo de simular distintos efectos.Otra estrategia común para aprender a partir de información de usuarios es diseñar sistemas supervisados de aprendizaje automático. En los últimos años, las redes neuronales convolucionales han superado el estado del arte de gran variedad de problemas de reconocimiento visual. Sin embargo, para nuevas tareas, los datos necesarios de entrenamiento pueden no estar disponibles y recopilar suficientes no es siempre posible. La segunda parte de esta tesis explora como mejorar los sistema que aprenden etiquetado denso semántico a partir de imágenes previamente etiquetadas por los usuarios. En particular, se presenta y validan estrategias, basadas en los dos principales enfoques para transferir modelos basados en deep learning, para segmentación semántica, con el objetivo de poder aprender nuevas clases cuando los datos de entrenamiento no son suficientes en cantidad o precisión.Estas estrategias se han validado en varios entornos realistas muy diferentes, incluyendo entornos urbanos, imágenes aereas y imágenes submarinas.In order to interact with the environment, it is necessary to understand what is happening on it, on the scene where the action is ocurring. Decades of research in the computer vision field have contributed towards automatically achieving this scene understanding from visual information. Scene understanding is a very broad area of research within the computer vision field. We could say that it tries to replicate the human capability of extracting plenty of information from visual data. For example, we would like to understand how the people perceive the world in three dimensions or can quickly recognize places or objects despite substantial appearance variation. One of the basic tasks in scene understanding from visual data is to assign a semantic meaning to every element of the image, i.e., assign a concept or object label to every pixel in the image. This problem can be formulated as a dense image labeling problem which assigns specific values (labels) to each pixel or region in the image. Depending on the application, the labels can represent very different concepts, from a physical magnitude, such as depth information, to high level semantic information, such as an object category. The general goal in this thesis is to investigate and develop new ways to automatically incorporate human feedback or prior knowledge in intelligent systems that require scene understanding capabilities. In particular, this thesis explores two common sources of prior information from users: human interactions and human labeling of sample data. The first part of this thesis is focused on learning complex scene information from interactive human knowledge. Interactive user solutions impose limitations on the performance where the feedback to the user must be at interactive rates. This thesis presents an efficient interaction paradigm that approximates any per-pixel magnitude from a few user strokes. It propagates the sparse user input to each pixel of the image. We demonstrate the suitability of the proposed paradigm through three interactive image editing applications which require per-pixel knowledge of certain magnitude: simulate the effect of depth of field, dehazing and HDR tone mapping. Other common strategy to learn from user prior knowledge is to design supervised machine-learning approaches. In the last years, Convolutional Neural Networks (CNNs) have pushed the state-of-the-art on a broad variety of visual recognition problems. However, for new tasks, enough training data is not always available and therefore, training from scratch is not always feasible. The second part of this thesis investigates how to improve systems that learn dense semantic labeling of images from user labeled examples. In particular, we present and validate strategies, based on common transfer learning approaches, for semantic segmentation. The goal of these strategies is to learn new specific classes when there is not enough labeled data to train from scratch. We evaluate these strategies across different environments, such as autonomous driving scenes, aerial images or underwater ones.<br /

    Reconocimiento robusto de texto en imágenes de dispositivos móviles

    Get PDF
    El procesamiento automático de imágenes tiene gran interés en el desarrollo de nuevas tecnologías y aplicaciones basadas en información visual. Hasta hace poco, estas tareas han estado limitadas a realizarse en ordenadores con gran capacidad de cómputo, debido a los altos requerimientos de los algoritmos utilizados. Sin embargo, estas limitaciones van desapareciendo gracias a las últimas generaciones de teléfonos móviles, los smartphones, que poseen capacidades de procesamiento mucho más altas. En particular, dentro del campo de la visión artificial y en particular en temas de reconocimiento automático, una tarea que se ve muy beneficiada de la portabilidad a dispositivos móviles es la detección y reconocimiento de texto, ya que se han generado nuevos ámbitos de aplicación. Con este trabajo de fin de máster se propone mejorar un sistema base existente de reconocimiento de texto en imágenes. El sistema base consiste en una aplicación para móviles capaz de extraer el texto de carteles rectangulares presentes en una fotografía capturada con el móvil. Actualmente existen muchos reconocedores de caracteres, llamados OCRs (del inglés Optical Character Recognition), que permiten extraer el texto de una imagen pero sus buenos resultados están muy condicionados a cómo se presenta el texto dentro de dicha imagen. Se requiere que el usuario enfoque con mucha precisión dónde se encuentran los textos a leer. Esta situación es una gran restricción y sobretodo muy poco realista y robusta, además de no permitir aprovechar estas tecnologías para, por ejemplo, dar servi cios a personas con problemas de visión. Aunque el prototipo tomado como base para este trabajo consigue mejorar los resultados obtenidos por un OCR convencional, sigue presentando limitaciones para el uso en escenarios generales. En particular, se va a realizar una evaluación exhaustiva del prototipo, y se va a diseñar e implementar mejoras que reduzcan las limitaciones actuales que presenta, para conseguir un reconocimiento más robusto. Dado que el campo donde se enmarca este trabajo es una rama activa dentro de la visión artificial, han aparecido nuevos enfoques dentro del reconocimiento de texto que obtienen mejores resultados que los tradicionales OCRs. Por ello, también se va a diseñar y evaluar la integración de este tipo de enfoques con el trabajo realizado. Los resultados obtenidos han sido satisfactorios, consiguiendo mejorar el prototipo base. También la evaluación realizada del proceso demuestra que éste consigue mejorar los resultados de otros OCRs existentes, además de mejorar, en determinados casos, los resultados de otras técnicas de extracción de texto más modernas. Con parte de estos resultados se redactó el siguiente articulo: “Towards robust and efficient text sign reading from a mobile phone” que fue publicado en el 2nd IEEE Workshop on Mobile Vision llevado a cabo junto con el ICCV 2011

    Interpretación de carteles con la cámara de un móvil

    Get PDF
    Mucha de la información que recibimos es visual y, cada vez encontramos más cámaras y bases de datos de imágenes a nuestra disposición. Por ello, el procesamiento automático e “inteligente” de imágenes tiene mucho interés en el desarrollo de nuevas tecnologías y aplicaciones basadas en visión artificial. En particular, en este proyecto el trabajo se centra en las tecnologías en auge de aplicaciones móviles, y cómo hacer uso de las cámaras integradas en los smartphones y de su capacidad cada vez mayor de cómputo. Gracias a esto, se pueden desarrollar aplicaciones relacionadas con la visión por computador en móviles, algo impensable hasta hace poco debido a las grandes limitaciones que presentaban. En el presente proyecto se desarrolla una aplicación para el iPhone capaz de extraer el texto de carteles rectangulares presentes en una imagen. Aunque actualmente existen muchos reconocedores de caracteres, llamados Optical Character Recognitions (OCRs), que permiten extraer el texto de una imagen, sus buenos resultados están muy condicionados a cómo se presenta el texto dentro de dicha imagen. Se requiere que el usuario enfoque con mucha precisión dónde se encuentran los textos a leer. Esta situación es una gran restricción y sobretodo muy poco realista y robusta, además de no permitir aprovechar estas tecnologías para, por ejemplo, dar servicios a personas con problemas de visión. Por ello, un objetivo principal de este proyecto es desarrollar una aplicación que libere al usuario de tal restricción. El funcionamiento de la aplicación desarrollada puede resumirse en tres pasos: elección, procesamiento y lectura del texto de una imagen. Primero el usuario debe capturar una imagen. En el segundo paso se procesa dicha imagen para obtener una nueva que sea más adecuada, para que en el último paso, su texto pueda ser extraído fácilmente por un OCR ya existente integrado también en el teléfono. El trabajo desarrollado en este proyecto, se centra sobretodo en el segundo paso: diseñar e implementar un proceso por el cual obtener una imagen adecuada para conseguir unos buenos resultados con un OCR, y en diseñar un prototipo que presente un funcionamiento satisfactorio en el teléfono. Para ello, antes de comenzar con la fase de desarrollo ha sido necesario una familiarización con el entorno: desde el sistema operativo al entorno de programación, así como estudiar la viabilidad de la inclusión de librerías estándar al dispositivo. En el proyecto se ha diseñado e implementado un detector de rectángulos y un modelo para evaluar la probabilidad de que éstos contengan texto. También se han comparado tres OCRs con el fin de seleccionar aquel que mejor se adapta al proyecto y se ha integrado todo lo anterior creando un prototipo real para el iPhone. La aplicación se ha probado tanto en el simulador como en dos dispositivos físicos: un iPhone 4 y un iPod Touch. Los resultados obtenidos han sido satisfactorios, consiguiendo un prototipo realista, y que podría utilizarse tanto como traductor de textos como asistente de lectura ante deficiencias visuales

    Learning from human-robot interaction

    Get PDF
    En los últimos años cada vez es más frecuente ver robots en los hogares. La robótica está cada vez más presente en muchos aspectos de nuestras vidas diarias, en aparatos de asistencia doméstica, coches autónomos o asistentes personales. La interacción entre estos robots asistentes y los usuarios es uno de los aspectos clave en la robótica de servicio. Esta interacción necesita ser cómoda e intuitiva para que sea efectiva su utilización. Estas interacciones con los usuarios son necesarias para que el robot aprenda y actualice de manera natural tanto su modelo del mundo como sus capacidades. Dentro de los sistemas roboticos de servicio, hay muchos componentes que son necesarios para su buen funcionamiento. Esta tesis esta centrada en el sistema de percepción visual de dichos sistemas.Para los humanos la percepción visual es uno de los componentes más esenciales, permitiendo tareas como reconocimiento de objetos u otras personas, o estimación de información 3D. Los grandes logros obtenidos en los últimos años en tareas de reconocimiento automático utilizan los enfoques basados en aprendizaje automático, en particular técnicas de deep learning. La mayoría de estos trabajos actuales se centran en modelos entrenados 'a priori' en un conjunto de datos muy grandes. Sin embargo, estos modelos, aunque entrenados en una gran cantidad de datos, no pueden, en general, hacer frente a los retos que aparecen al tratar con datos reales en entornos domésticos. Por ejemplo, es frecuente que se de el caso de tener nuevos objetos que no existían durante el entrenamiento de los modelos. Otro reto viene de la dispersión de los objetos, teniendo objetos que aparecen muy raramente y por lo tanto habia muy pocos, o ningún, ejemplos en los datos de entenamiento disponibles al crear el modelo.Esta tesis se ha desarrollado dentro del contexto del proyecto IGLU (Interactive Grounded Language Understanding). Dentro del proyecto y sus objetivos, el objetivo principal de esta Tesis doctoral es investigar métodos novedosos para que un robot aprenda de manera incremental mediante la interacción multimodal con el usuario.Desarrollando dicho objetivo principal, los principales trabajos desarrollados durante esta tesis han sido:-Crear un benchmark más adecuado para las tareas de aprendizaje mediante la interacción natural de usuario y robot. Por ejemplo, la mayoría de los datasets para la tarea de reconocimiento de objetos se centra en fotos de diferentes escenarios con múltiples clases por foto. Es necesario un dataset que combine interacción usuario robot con aprendizaje de objetos.-Mejorar sistemas existentes de aprendizaje de objetos y adecuarlos para aprendizaje desde la interacción multimodal humana. Los trabajos de detección de objetos se focalizan en detectar todos los objetos aprendidos en una imagen. Nuestro objetivo es usar la interacción para encontrar el objeto de referencia y aprenderlo incrementalmente.-Desarrollar métodos de aprendizaje incremental que se puedan utilizar en escenarios incrementales, p.e., la aparición de una nueva clase de objeto o cambios a lo largo del tiempo dentro de una clase objetos. Nuestro objetivo es diseñar un sistema que pueda aprender clases desde cero y que pueda actualizar los datos cuando estos aparecen.-Crear un completo prototipo para el aprendizaje incremental y multimodal usando la interacción humana-robot. Se necesita realizar la integración de los distintos métodos desarrollados como parte de los otros objetivos y evaluarlo.<br /

    Evaluación de plataformas de bajo coste para construir un sistema de vídeo-vigilancia

    Get PDF
    En este Trabajo de Fin de Grado se ha realizado la evaluación de diversas plataformas de bajo coste para su futuro uso en proyectos y prácticas relacionados con la robótica y la visión por computador. Para ello se ha utilizado como principal elemento, una Raspberry Pi, con la cual se han probado varias plataformas a evaluar como placas de adaptación para su uso con sensores y motores existentes de LEGO Mindstorms. Con el objetivo de determinar el alcance del uso de las plataformas anteriormente mencionadas, y como ejemplo de diseño de un prototipo para una tarea real, se ha diseñado, implementado y evaluado un sistema de vídeo vigilancia y monitorización con la Raspberry Pi y las plataformas evaluadas. Los objetivos del trabajo se han cubierto satisfactoriamente y se pueden agrupar en tres bloques: Se ha realizado una evaluación y puesta en marcha de todas las plataformas y sensores disponibles, y se han seleccionado los componentes más adecuados. Por un lado se realizo la evaluación de 2 placas para el control de sensores y motores, PiStorms y Dexter BrickPi. En ambas placas se pudieron utilizar los sensores disponibles sin problemas, eligiendo finalmente Dexter BrickPi por su mayor autonomía y robustez. Por otro lado se evaluaron 3 cámaras diferentes, NXTCAMv4, Asus Xtion y Raspberry Pi Camera para su uso con las demás plataformas disponibles. Tras descartar NXTCAMv4 por no estar soportada por las placas, se eligió la Raspberry Pi Camera por su menor consumo y mayor velocidad en comparación con Asus Xtion. El sistema de \textit{tracking} del prototipo está desarrollado con la biblioteca para visión por computador OpenCV, que permite una instalación sencilla en la plataforma y facilita el procesado y captura de los datos. %Para implementar el sistema de vídeo vigilancia, Se ha realizado una evaluación de los distintos algoritmos de seguimiento disponibles en OpenCV, utilizando datos públicos con datos precisos etiquetados sobre las personas que aparecen en los vídeos del mismo. Esta evaluación ha permitido comprobar el funcionamiento de dichos algoritmos y elegir aquellos que mejor rendimiento presentan con las plataformas elegidas. Por ultimo se ha construido un prototipo demostrativo con las plataformas \textit{hardware} y los algoritmos elegidos que realizase tareas de vídeo vigilancia y monitorización. El sistema implementado se divide en varias fases: En primer lugar aplica un detector de personas sobre todos los \textit{frames} que recibe; una vez que encuentra a una persona, comenzará a hacer \textit{tracking} de esa persona; en función de donde indique el \textit{tracking} que se encuentra esa persona, el sistema moverá un motor para orientar la cámara hacía la posición del objetivo; cuando el sistema pierde al objetivo, vuelve a aplicar la detección. Además cada vez que encuentra a una persona y empieza a realizar \textit{tracking}, sube una imagen de dicha persona a Dropbox, permitiendo acceder remotamente a los datos. El prototipo funciona de forma correcta y es capaz de monitorizar al objetivo en tiempo real, siempre y cuando la velocidad del objeto a seguir no sea muy alta, para lo cual haría falta una capacidad de cómputo mayor
    corecore